智能论文笔记

Quantizing Heavy-tailed Data in Statistical Estimation: (Near) Minimax Rates, Covariate Quantization, and Uniform Recovery

Junren Chen , Michael K. Ng , Di Wang

分类： (统计)机器学习

2022-12-30

This paper studies the quantization of heavy-tailed data in some fundamental statistical estimation problems, where the underlying distributions have bounded moments of some order. We propose to truncate and properly dither the data prior to a uniform quantization. Our major standpoint is that (near) minimax rates of estimation error are achievable merely from the quantized data produced by the proposed scheme. In particular, concrete results are worked out for covariance estimation, compressed sensing, and matrix completion, all agreeing that the quantization only slightly worsens the multiplicative factor. Besides, we study compressed sensing where both covariate (i.e., sensing vector) and response are quantized. Under covariate quantization, although our recovery program is non-convex because the covariance matrix estimator lacks positive semi-definiteness, all local minimizers are proved to enjoy near optimal error bound. Moreover, by the concentration inequality of product process and covering argument, we establish near minimax uniform recovery guarantee for quantized compressed sensing with heavy-tailed noise.

translated by 谷歌翻译

Low-Rank Tensor Function Representation for Multi-Dimensional Data Recovery

Yisi Luo , Xile Zhao , Zhemin Li , Michael K. Ng , Deyu Meng

分类：计算机视觉 | 机器学习

2022-12-01

Since higher-order tensors are naturally suitable for representing multi-dimensional data in real-world, e.g., color images and videos, low-rank tensor representation has become one of the emerging areas in machine learning and computer vision. However, classical low-rank tensor representations can only represent data on finite meshgrid due to their intrinsical discrete nature, which hinders their potential applicability in many scenarios beyond meshgrid. To break this barrier, we propose a low-rank tensor function representation (LRTFR), which can continuously represent data beyond meshgrid with infinite resolution. Specifically, the suggested tensor function, which maps an arbitrary coordinate to the corresponding value, can continuously represent data in an infinite real space. Parallel to discrete tensors, we develop two fundamental concepts for tensor functions, i.e., the tensor function rank and low-rank tensor function factorization. We theoretically justify that both low-rank and smooth regularizations are harmoniously unified in the LRTFR, which leads to high effectiveness and efficiency for data continuous representation. Extensive multi-dimensional data recovery applications arising from image processing (image inpainting and denoising), machine learning (hyperparameter optimization), and computer graphics (point cloud upsampling) substantiate the superiority and versatility of our method as compared with state-of-the-art methods. Especially, the experiments beyond the original meshgrid resolution (hyperparameter optimization) or even beyond meshgrid (point cloud upsampling) validate the favorable performances of our method for continuous representation.

translated by 谷歌翻译

Approximate Secular Equations for the Cubic Regularization Subproblem

Yihang Gao , Man-Chung Yue , Michael K. Ng

分类：机器学习

2022-09-27

立方正则化方法（CR）是一种流行的算法，用于无限制的非凸优化。在每次迭代中，CR解决了一个立方正规化的二次问题，称为立方正则化子问题（CRS）。解决CRS的一种方法依赖于解决世俗方程，其计算瓶颈在于计算Hessian矩阵的所有特征值。在本文中，我们根据近似的世俗方程提出和分析了一种新颖的CRS求解器，该方程仅需要一些Hessian特征值，因此更有效。开发了两个近似的世俗方程（ASE）。对于这两个ASE，我们首先研究其根的存在和独特性，然后在根部和标准世俗方程之间的间隙上建立上层界限。这样的上限可以依次用于绑定从基于AS的近似CRS解决方案到真实CRS解决方案的距离，从而为我们的CRS求解器提供理论保证。我们CRS求解器的理想特征是它仅需要矩阵向量乘法，而不需要矩阵反转，这使其特别适合于无限制的非凸优化的高维应用，例如低级别恢复和深度学习。进行合成和实际数据集的数值实验是为了研究拟议的CRS求解器的实际性能。实验结果表明，所提出的求解器的表现优于两种最先进的方法。

translated by 谷歌翻译

Expressing Multivariate Time Series as Graphs with Time Series Attention Transformer

William T. Ng , K. Siu , Albert C. Cheung , Michael K. Ng

分类：机器学习 | 人工智能

2022-08-19

在各种下游机器学习任务中，多元时间序列的可靠和有效表示至关重要。在多元时间序列预测中，每个变量都取决于其历史值，并且变量之间也存在相互依存关系。必须设计模型以捕获时间序列之间的内部和相互关系。为了朝着这一目标迈进，我们提出了时间序列注意变压器（TSAT），以进行多元时间序列表示学习。使用TSAT，我们以边缘增强动态图来表示多元时间序列的时间信息和相互依赖性。在动态图中的节点表示，串行中的相关性表示。修改了一种自我注意力的机制，以使用超经验模式分解（SMD）模块捕获序列间的相关性。我们将嵌入式动态图应用于时代序列预测问题，包括两个现实世界数据集和两个基准数据集。广泛的实验表明，TSAT显然在各种预测范围内使用六种最先进的基线方法。我们进一步可视化嵌入式动态图，以说明TSAT的图形表示功能。我们在https://github.com/radiantresearch/tsat上共享代码。

translated by 谷歌翻译

Sparse Nonnegative Tucker Decomposition and Completion under Noisy Observations

Xiongjun Zhang , Michael K. Ng

分类：机器学习 | (统计)机器学习

2022-08-17

张量分解是从多维非负数据中提取物理有意义的潜在因素的强大工具，并且对诸如图像处理，机器学习和计算机视觉等各个领域的兴趣越来越多。在本文中，我们提出了一种稀疏的非负塔克分解和完成方法，用于在嘈杂的观察结果下恢复潜在的非负数据。在这里，基本的非负数据张量分解为核心张量，几个因子矩阵，所有条目均为无负，并且因子矩阵稀疏。损失函数是由嘈杂观测值的最大似然估计得出的，并且使用$ \ ell_0 $ norm来增强因子矩阵的稀疏性。我们在通用噪声场景下建立了拟议模型的估计器的误差结合，然后将其指定为具有加性高斯噪声，加法拉普拉斯噪声和泊松观测的观测值。我们的理论结果比现有基于张量或基于矩阵的方法更好。此外，最小值的下限显示与对数因子的衍生上限相匹配。合成数据集和现实世界数据集的数值示例证明了提出的非负张量数据完成方法的优越性。

translated by 谷歌翻译

Separable Quaternion Matrix Factorization for Polarization Images

Junjun Pan , Michael K. Ng

分类：计算机视觉

2022-07-28

极化是横向波的独特特征，由Stokes参数表示。极化状态的分析可以揭示有关来源的宝贵信息。在本文中，我们提出了一个可分离的低级别四元素线性混合模型对极化信号：我们假设源因子矩阵的每一列等于极化数据矩阵的一列，并将相应的问题称为可分离的Quaternion矩阵分解（SQMF）。我们讨论了SQMF可以分解的矩阵的一些属性。为了确定季节空间中的源因子矩阵，我们提出了一种受连续投影算法启发的称为Quaternion连续投影算法（QSPA）的启发式算法。为了确保QSPA的有效性，为Quaternion矩阵提出了一个新的归一化操作员。我们使用块坐标下降算法来计算实际数字空间中的非负因子激活矩阵。我们在极化图像表示和光偏光成像的应用中测试我们的方法，以验证其有效性。

translated by 谷歌翻译

Error Bound of Empirical $\ell_2$ Risk Minimization for Noisy Standard and Generalized Phase Retrieval Problems

Junren Chen , Michael K. Ng

分类： (统计)机器学习 | 机器学习

2022-05-27

在本文中，我们研究了经验$ \ ell_2 $最小化（erm）的估计性能（标准）阶段检索（NPR），由$ y_k = | \ alpha_k^*x_0 |^2+\ eta_k $，或嘈杂的广义阶段检索（NGPR）以$ y_k = x_0^*a_kx_0 + \ eta_k $，其中$ x_0 \ in \ mathbb {k}^d $是所需的信号，$ n $是样本大小，$ \ eta =（\ eta_1，...，\ eta_n）^\ top $是噪声向量。我们在不同的噪声模式下建立了新的错误界限，我们的证明对$ \ mathbb {k} = \ mathbb {r} $和$ \ mathbb {k} = \ mathbb {c} $有效。在任意噪声向量$ \ eta $下的NPR中，我们得出了一个新的错误$ o \ big（\ | \ eta \ | _ \ | _ \ infty \ sqrt {\ frac {d} {1}^\ top \ eta |} {n} \ big）$，它比当前已知的一个$ o \ big（\ frac {\ | \ eTa \ |} {\ sqrt {\ sqrt {n}} \ big big ）$在许多情况下。在NGPR中，我们显示了$ o \ big（\ | \ eta \ | \ frac {\ sqrt {d}}} {n} {n} \ big）$ for nutary $ \ eta $。在这两个问题上，任意噪声的范围立即引起$ \ tilde {o}（\ sqrt {\ frac {d} {n}}}}）$，用于次高斯或次指数随机噪声，带有一些常规但不可吻的去除或削弱的假设（例如，独立或均值均值的条件）。此外，我们首次尝试在假定$ l $ -th时刻的重尾随机噪声下进行ERM。为了实现偏见和差异之间的权衡，我们截断了响应并提出了相应的稳健ERM估计器，该估计量具有保证$ \ tilde {o} \ big（\ big [\ sqrt {\ frac {\ frac {d}） {n}} \ big]^{1-1/l} \ big）$在NPR，NGPR中。所有错误都直接扩展到等级$ r $矩阵恢复的更普遍的问题，这些结果得出的结论是，全级框架$ \ {a_k \} _ {k = 1}^n $ in ngpr是比级别1帧$ \ {\ alpha_k \ alpha_k^*\} _ {k = 1}^n $在npr中更强大。提出了广泛的实验结果，以说明我们的理论发现。

translated by 谷歌翻译

High Dimensional Statistical Estimation under Uniformly Dithered One-bit Quantization

Junren Chen , Cheng-Long Wang , Michael K. Ng , Di Wang

分类： (统计)机器学习 | 机器学习

2022-02-26

在本文中，我们提出了一种均匀抖动的一位量化方案，以进行高维统计估计。该方案包含截断，抖动和量化，作为典型步骤。作为规范示例，量化方案应用于三个估计问题：稀疏协方差矩阵估计，稀疏线性回归和矩阵完成。我们研究了高斯和重尾政权，假定重尾数据的基本分布具有有限的第二或第四刻。对于每个模型，我们根据一位量化的数据提出新的估计器。在高斯次级政权中，我们的估计器达到了对数因素的最佳最小速率，这表明我们的量化方案几乎没有额外的成本。在重尾状态下，虽然我们的估计量基本上变慢，但这些结果是在这种单位量化和重型尾部设置中的第一个结果，或者比现有可比结果表现出显着改善。此外，我们为一位压缩传感和一位矩阵完成的问题做出了巨大贡献。具体而言，我们通过凸面编程将一位压缩感传感扩展到次高斯甚至是重尾传感向量。对于一位矩阵完成，我们的方法与标准似然方法基本不同，并且可以处理具有未知分布的预量化随机噪声。提出了有关合成数据的实验结果，以支持我们的理论分析。

translated by 谷歌翻译

Color Image Inpainting via Robust Pure Quaternion Matrix Completion: Error Bound and Weighted Loss

Junren Chen , Michael K. Ng

分类：计算机视觉

2022-02-04

在本文中，我们将颜色图像插入作为纯季基矩阵完成问题。在文献中，季节矩阵完成的理论保证并不确定。我们的主要目的是提出一个新的最小化问题，并将核标准和三个通道之间的二次损失相结合。为了填补理论空缺，我们获得了在干净和损坏的政权中绑定的错误，这依赖于四元素矩阵的一些新结果。在强大的完成中考虑了一般的高斯噪音，所有观察都被损坏。由于界限的动机，我们建议通过二次损失中的跨通道重量来处理不平衡或相关的噪声，这是重新平衡噪声水平或消除噪声相关性的主要目的。提供了有关合成和颜色图像数据的广泛实验结果，以确认和证明我们的理论发现。

translated by 谷歌翻译

Morphological feature visualization of Alzheimer's disease via Multidirectional Perception GAN

Wen Yu , Baiying Lei , Yanyan Shen , Shuqiang Wang , Yong Liu , Zhiguang Feng , Yong Hu , Michael K. Ng

分类：计算机视觉

2021-11-25

诊断阿尔茨海默病（AD）的早期阶段（AD）对于及时治疗至关重要以缓慢进一步恶化。可视化广告早期阶段的形态特征是巨大的临床价值。在这项工作中，提出了一种新的多向感知生成的对抗网络（MP-GaN）来可视化表明不同阶段患者的广告严重程度的形态特征。具体地，通过将新的多向映射机制引入模型中，所提出的MP-GaN可以有效地捕获突出全局特征。因此，通过利用来自发电机的类别辨别图，所提出的模型可以通过源域和预定义目标域之间的MR图像变换清楚地描绘微妙的病变。此外，通过集成对抗性损失，分类损失，周期一致性损失和\ emph {l} 1惩罚，MP-GaN中的单个发电机可以学习多类的类鉴别映射。对阿尔茨海默病神经影像倡议（ADNI）数据集进行了广泛的实验结果表明，与现有方法相比，MP-GAN实现了卓越的性能。由MP-GaN可视化的病变也与临床医人观察到的一致。

translated by 谷歌翻译